N. 15 del 1/11/1998

Ricerche con trucco
di Alessandro Venturi


I meta tag, la parte "nascosta" del Web - Tutti i trabocchetti (leciti e illeciti) in cui cascano i motori

È facile sperimentare, cercando informazioni con i motori di ricerca, quante volte tale capacità venga meno. Questo dipende dal fatto che gli spider, crawler o scooter (gli agenti software che navigano su Internet alla ricerca di nuove pagine) cercano a testa bassa, limitandosi a rintracciare le parole chiave in qualsiasi documento appaia, anche il meno rilevante.

L'ordine in cui sono elencati i risultati, inoltre, è in genere determinato solo dal numero di volte in cui la parola chiave compare: un criterio solo quantitativo, inadeguato a soddisfare la richiesta.


Se si usa Internet Explorer come browser la visualizzazione del codice Html "dietro" la pagina si ottiene selezionando la voce html del menù visualizza:

si aprirà una finestra di Blocco Note con il codice sorgente contenuto. Se si usa Netscape Communicator il modo più semplice è usare il comando ctrl-u.


Tuttavia i webmaster (coloro che creano e gestiscono i siti Web), per rendere più facilmente intercettabili dai motori le loro pagine, hanno ancora una carta da giocare, che vale la pena di conoscere anche per meglio impostare le proprie ricerche. Consiste nell'allegare dei "campi invisibili" a ciascuna pagina Web. Niente di fantascientifico, poiché l'invisibilità in realtà significa che il codice Html con cui una pagina Web è scritta può contenere dei comandi (chiamati meta tag) mediante i quali il webmaster specifica il titolo, il sommario (o descrizione) e le parole chiave che meglio descrivono la pagina in questione. I meta tag non sono visibili attraverso i browser ma vengono letti e indicizzati dai motori di ricerca (con l'eccezione di Excite, che indicizza solo il meta tag <title>, titolo). Per vederli, si deve visualizzare il codice sorgente della pagina utilizzando l'apposita voce di menù del proprio browser.

I tag che danno una mano

Le pagine che contengono i meta tag sono più facilmente reperibili e questo aiuta sia chi effettua le ricerche sia l'autore. Spesso, infatti, le parole chiave che vengono utilizzare da chi cerca per specificare l'argomento cui è interessato non sono presenti in una pagina, che può tuttavia essere interessante.


Trucco da spammer: inserire parole chiave nel testo che risultano "invisibili" perché del colore dello sfondo. Solo selezionandolo l'intera pagina vengono miracolosamente alla luce e spesso, come in questo caso, solo in calce al testo.
I bravi programmatori Html sono in grado di inserire nei meta tag termini ulteriori, non presenti nel testo, che aiutano a specificarne meglio il contenuto. Usando un plurale anziché un singolare, o un sinonimo, o un termine vago, si rischia infatti, in assenza dei meta tag, di non trovare pagine preziose per la propria ricerca. Si pensi a una ricerca delle foto di cestisti della Nba.Con la ricerca "Nba and pictures" si rischia di non trovare facilmente l'effigie del proprio giocatore preferito, perché le pagine contenenti le foto non necessariamente contengono del testo; e se lo contengono, non è detto che in esso si trovino i termini "Nba" e "pictures". Il motore può "accorgersi" che effettivamente la pagina in questione contiene le foto desiderate solo se queste sono state opportunamente dotate di meta tag adeguati. Inoltre, i meta tag sono molto utili per la consultazione degli elenchi di risultati delle ricerche perché sono usati dalla maggior parte dei motori (con l'eccezione di Lycos ed Excite) per descrivere il contenuto delle pagine reperite. In genere il testo del link corrisponde al meta tag <title> e il sommario al meta tag <description> (descrizione). Se la pagina non ha meta tag allegati, il motore inserisce nel link e nel sommario le prime parole del testo della pagina, spesso con il risultato di fornire un titolo e una descrizione incomprensibili.

L'altra faccia dei meta tag

Non sempre però i meta tag si rivelano utili. Anzi, a volte la loro presenza può essere controproducente. Per esempio quando le parole contenute nei meta tag non coincidono con quelle contenute nelle pagine cui sono allegati, specie cercando termini specifici o usando le parole chiave per ricerche "esplorative" su di un argomento definito solo vagamente. Il vero problema legato ai meta tag è però un altro. Sempre più spesso, infatti, capita che facciano la loro comparsa fra i risultati pagine che, oltre a non contemplare le parole chiave, non sembrano avere alcun nesso con quanto cercato. Escluso che si sia verificato un caso in cui il motore incappa in un termine dal significato multiplo, o in cui la pagina ha cambiato contenuto dopo l'ultima volta che lo spider ha visitato il sito, la "colpa" è dei meta tag. O, per meglio dire, del loro uso spregiudicato.

Occhio agli spammer

Sono molti, infatti, i cosiddetti spammer, coloro che sfruttano il Web a scopo di lucro senza rispettare la netiquette (il codice deontologico cui ogni buon navigatore dovrebbe attenersi). Una delle tecniche preferite dagli spammer consiste nell'attirare in modo truffaldino visitatori a dei siti inserendo nei tag parole chiave di uso comune, come "download", "software" "free" e perfino "sex". Talvolta il trucco consiste nell'inserire nei tag nomi di marchi famosi per attirare traffico in siti di sottomarche. Un'altra variante vede l'inserimento nei tag persino del nome del diretto concorrente.

Evidentemente, questo trucco funziona solo con i motori di ricerca che utilizzano i meta tag. Excite non li indicizza proprio per evitare questo tipo di problemi. Tuttavia, anche Excite spesso restituisce pagine non rilevanti. La causa è un altro trucco degli spammer. Costoro inseriscono le parole chiave "ingannatrici" nel testo oltre che nei meta tag, ma esse sono egualmente invisibili perché scritte nel medesimo colore della pagina. L'unico modo per "portarle alla luce" è selezionare con il mouse tutto il testo della pagina Web.

Cerchi una pagina, ne trovi un'altra

Spesso lo spamming si spinge oltre. Si è scoperto infatti che ogni motore di ricerca ha dei punti deboli peculiari, e tende ad attribuire una maggiore rilevanza a pagine costruite in un modo particolare: poco testo oppure molto, link testuali oppure grafici, e perfino il rapporto aritmetico fra numero di parole chiave e numero complessivo di parole contenute in una pagina. Ciascun motore ha dunque la sua "pagina preferita", che differisce dalla pagina preferita da tutti gli altri. Per evitare di realizzare tanti siti quanti sono i motori di ricerca, e tenuto conto che non sempre la pagina ideale risulta visivamente accettabile, gli spammer utilizzano il comando Html <refresh> (aggiorna). Il comando <refresh> fa sì che quando la pagina viene letta da un browser, immediatamente ne venga caricata un'altra, senza che l'originale possa essere visto dal navigatore. Così, non appena l'utente del motore di ricerca fa clic su uno dei link nella videata dei risultati della ricerca, se la pagina relativa contiene un meta tag <refresh>, verrà visualizzata un'altra pagina. In questo modo, per lo spammer è sufficiente creare una pagina "fantasma" ad hoc (in gergo definita "redirect page" o "jump page") per ciascuno dei principali motori di ricerca, mentre il sito cui queste "puntano" rimane invariato.

Contro i motori anche pixel fantasma

I motori di ricerca hanno in parte reagito agli abusi degli spammer. Tutti penalizzano le pagine artificiosamente sovraccariche di parole chiave, sia nel testo sia nei meta tag. Addirittura, Infoseek non indicizza le pagine contenenti il comando <refresh>. Tuttavia, le tecniche di spamming si sono raffinate di conseguenza, e nuovi trucchi vengono escogitati per eludere le contromisure dei motori. Il più subdolo dei trabocchetti è forse quello denominato "pixel fantasma", che consiste nell'inserire nelle pagine Web un'immagine delle dimensioni di un pixel e del colore uguale allo sfondo, dunque di fatto invisibile. Quest'immagine serve a riempire il campo <img alt> con decine e decine di parole, anziché utilizzarlo correttamente inserendovi la descrizione dell'immagine.

Quando i motori abboccano

Ecco i meta tag più usati, anche scorrettamente, per fare rintracciare le proprie pagine dai motori.

<TITLE>

Si usa per specificare un titolo per la pagina in questione.

<DESCRIPTION>

Permette di includere, nascosto, un sommario che descrive il contenuto della pagina o del sito cui essa appartiene.

<KEYWORDS>

Consente di inserire una serie di parole chiave rappresentative del contenuto della pagina o del sito cui essa appartiene.

<REFRESH>

Indica al browser di caricare automaticamente un'altra pagina senza che tale passaggio sia notato dal navigatore. Al limite dello spamming.



Altri Articoli Correlati
  • TOP WEB - Suburbia on line di G. V.
  • Trovare ed esser trovati
  • TOP WEB - Indovina chi viene a cena? di Grazia Visconti
  • TOP WEB - Visti da oriente di Grazia Visconti
  • Spamming o no spamming, questo è il problema


  • CategoriaSottocategoria
    Software funzionale e di produttivita'Internet Publishing e browsing

    top


    © Mondadori Informatica S.p.A. - 1999
    Tutti i diritti di proprietα letteraria e artistica riservati